拍拍贷数据集的探索

一、单变量探索

数据基本特征

## [1] 50000    30
##  [1] "ListingId"        "借款金额"         "借款期限"        
##  [4] "借款利率"         "借款成功日期"     "初始评级"        
##  [7] "借款类型"         "是否首标"         "年龄"            
## [10] "性别"             "手机认证"         "户口认证"        
## [13] "视频认证"         "学历认证"         "征信认证"        
## [16] "淘宝认证"         "历史成功借款次数" "历史成功借款金额"
## [19] "总待还本金"       "历史正常还款期数" "历史逾期还款期数"
## [22] "期数"             "还款状态"         "应还本金"        
## [25] "应还利息"         "剩余本金"         "剩余利息"        
## [28] "到期日期"         "还款日期"         "recorddate"

1.1借款金额的分布(截取0~8000范围)

5万条数据中,借款高于10000的用户1554名,大部分用户借款金额在在这之下,图中出现一些规律,如逢百位为5的都有所下降。

1.1.1借款金额的分布情况(对数伸缩)

借款金额主要集中在中间的区域,图形接近正态分布

1.1.2男女借款金额的情况对比

男女借款总额对比

## paipai$性别: 男
## [1] 158014334
## -------------------------------------------------------- 
## paipai$性别: 女
## [1] 67577276

女性的借款数量低于男性,但分布上跟男性比较接近

1.1.3通过频率多变图具体对比

1.1.4男女借款金额的情况对比(箱型图对比)

男女性别用户借款金额的描述

## paipai$性别: 男
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2100    3466    4628    5274  500000 
## -------------------------------------------------------- 
## paipai$性别: 女
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2029    3500    4262    5500  400000

前两图来看,虽然男性比女性的借款额的频率高,但从箱型图来看,两者的中位数和25%以及75%分位数都很接近

1.2年龄的分布情况

借款人年龄在22~31岁之间居多,图形呈左偏

1.3不同性别借款期限的分布

借款期限以6和12月份居多,男女都呈现出比较一致的情况

4、“借款利率”的分布

借款利率为20-22(单位不知)的情况较为常见

1.5、借款类型的情况

##      Var1  Freq
## 1 APP闪电 17210
## 2    电商   113
## 3    普通 18257
## 4    其他 14420

电商形式的借款类型较少,对借款类型的情况做个了解,可以针对性的投放广告,应该对“其他”的渠道做更详细的了解

1.6查看借款最多的日期情况

1.7查看历史成功借款金额的分布情况

数据集总结:

1.采用python对拍拍贷的LC和LP文件进行了拼接,并且随机抽取了5万条的数据,特征有30条
2.主要选择的特征有:
“借款金额”,“年龄”,借款利率“,“借款类型”,“历史成功借款金额”
3.以下特征有助于我对单变量的分析:
”性别“,‘借款日期’
4.创建了一个新的变量month,用来记录2015年1月开始的贷款成功月份数(后文还将创建‘总借款金额’,‘认证次数’等新特征)
5.借款金额分布的范围很广,除了对范围做个截断处理外,还用到了对数伸缩的方法对借款金额做了个缩小。前者原因是可以让我对分布密集的区域做更详细的了解,后者的原因是,在不失去整体数据的情况下,也能很直观的观察总体的分布。

二、双变量探索

每月份销售总额情况

借款金额随月份逐渐增加

2.1构建每个年龄段的平均借款金额数据框

多图展示各变量关系

观察到图中具有较强关系的特征较少

2.2年龄跟本次借款金额的关系

2.3总借款金额跟年龄的关系

从上述两图可看到,年龄跟本次借款金额以及整体借款金额上的关系并不容易看出来,下一步通过平均值观察其中的情况

2.4根据每个年龄段绘制平均借款金额图

从图上看出,年龄在30岁之间,平均借款金额随年龄有个上升的趋势。后面有个波动的过程,下面通过用分位数具体看下

2.4从均值线、中位线、10%和90%的分位线看年龄跟借款金额的关系

50岁后的借款用户比较少,但上下浮动较为明显

2.41不同年龄层的借款利息间的关系

paipai$cut_age <- cut(paipai$年龄,c(16,20,25,30,35,40,45,50,56)) #将年龄分段
qplot(data=paipai,
      x=cut_age,y=借款利率,main='不同年龄层的借款利息差异',
      geom='boxplot')+
  scale_y_continuous(breaks=seq(10,26,3))

年龄越接近中间位置(35岁),贷款利率低于正常范围水平(1.5倍IQR)的情况也越多

2.5.1历史借款金额跟借款金额的关系(去除历史成功借款金额为0的情况)

2.5.2历史借款金额跟借款金额的相关度

## 
##  Pearson's product-moment correlation
## 
## data:  df_n$借款金额 and df_n$历史成功借款金额
## t = 98.169, df = 35532, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4536859 0.4700445
## sample estimates:
##       cor 
## 0.4619045

历史成功借款金额跟当前这次的借款额度之间为中等程度的正相关性关系

2.6认证次数跟评级的关系

从认证次数跟初始评级的关系来看,0和1次认证D和C的评级占比最大,2到4次认证的用户,C的占比较之前增大。

双变量分析总结

1.探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?
这部分探索了月份、年龄、借款金额、历史借款额、认证次数和评级等特征,除了时间跟借款总额特征的关系很强外,其他的相关关系较弱

2.你是否观察到主要特性与其他特性之间的有趣关系?
观察到,不同年龄段的用户对借款金额的需求也不同,历史借款金额对本次借款金额的额度存在中等程度的相关性

3.你发现最强的关系是什么?
时间跟借款总额的关系是最强的,随着时间的推移,更多的用户在这个平台借款.

三、多变量探索

3.1不同年龄初始评级的借款金额分布

这部分看不出存在特别的关系

3.2不同年龄不同性别借款金额的分布

男性有比较集中的借款额区域,女性借款金额分布更广泛

3.3不同年龄是否首标的借款金额对比

借款金额是否首标的数据统计

## paipai$是否首标: 否
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2000    3000    3997    4455  500000 
## -------------------------------------------------------- 
## paipai$是否首标: 是
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    3750    5000    5777    7000  500000

首标的用户借款金额比较集中,23岁之后,多数集中在借款金额为1e4附近

3.4.1还款状态性别的对比

前四种还款状态中,男性的比例都较高

3.4.2逾期用户年龄和借款金额的男女差异对比

逾期用户男女比例差异

## 
##         男         女 
## 0.06888674 0.06161317

逾期用户中,男性逾期的比例高于女性

多变量分析总结

1.探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?
多变量的观察上,除了首标用户这个特征存在特定的表现外,其他特征的对比还未找到特别明显的特性

2.这些特性之间是否存在有趣或惊人的联系呢?
1.首标用户表现出借款金额更高的情况;2.男性借款额度的区域更为集中。


Final Plots and Summary

Plot One

Description One

从图上可以看出来,用户更容易借整千数值的金额,百位逢5,男女性别借款的人数都会变低。 此外,站在平台运营方的角度考虑,分析不同性别的借款金额分布是有意义的,比如需要提高用户借款额度,就可以通过在借款频数多的附近(略高额度)做一些活动,用户在考虑4000时的优惠低,但5000优惠或奖励多,就可能改成借5000额度。区分男女,也可以做相应的活动策略

Plot Two

低于35和高于35岁用户的借款金额

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2000    3270    4279    5097  500000
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2863    4200    5530    6000  500000

Description Two

借款用户年龄主要集中在21岁到35岁之间,对于运营商来说,在已经了解到35岁以上的用户的平均借款额度是高于35岁以下用户的,那么就需要去了解为什么这区域的人数较多,而其他区域较少,是否是产品的推广不到位导致年级大的用户没有接触到,是否要投入更多推广成本在这方面

Plot Three

Description Three

从图中我们可以看到,不同的年龄层,首标的用户,借款金额更多的集中在一些规律的区域,均值线也高于非首标用户。可见,提高新用户的比例有助于提高借款额度.